BlendServe: Optimización de inferencia offline con batching por recursos
¿Quieres optimizar la inferencia offline de modelos grandes? BlendServe combina batching consciente de recursos y prefijo compartido logrando hasta 1.44x más rendimiento que vLLM y SGLang.